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领域 之 


， 但 现 阶段 深度 学 习 等 人 工 智能 方法 在 中 国 西南 


摘 要 : [目的 /意义 ] 耕地 识别 是 农业 遥感 的 重要 应 
丘陵 区 


陵 


区 遥感 识别 的 研究 应 用 深度 仍然 不 够 ， 识 别 精度 有 待 提升 。[ 方 法 ] 为 了 快速 、 精 确 地 获取 耕地 面积 、 分 布 等 
信息 ， 基 于 高 分 辩 率 的 高 分 六 号 (GF-6) 遥感 影像 ， 运 用 UNet++ 、DeeplabV3+ 、UNet 与 PSPNet 等 新 型 深度 学 习 


模型 对 四 川 省 绵阳 市 三 台 县 耕地 信息 进行 识别 ， 并 对 各 深度 学 习 模 型 、 传 统 机 还 学 习 方法 一 一 随机 森林 法 及 新 型 
土地 覆盖 产品 SinoLC-1 的 识别 精度 进行 对 比分 析 ， 以 期 深入 探索 深度 学 习 方 法 在 地 物 胸 感 识 别 领 域 的 应 用 前 景 。 
[结果 和 讨论 ] 深度 学 习 模 型 在 分 数 、 整 体 精度 (Overall Accuracy, OA), 、Kappa 系 数 等 精度 评价 指标 的 表现 上 ， 
相 比 于 传统 机 咒 学 习 方 法 和 新 型 土地 覆盖 产品 均 有 显著 提升 ， 精 度 提升 幅度 分 别 可 达 20% 和 50%; 其 中 添加 了 密 


WY IOU, OA 和 Kappa 3 个 指标 比 仅 光谱 特征 模型 分 别提 


跳跃 连接 技术 的 UNet++ 模 型 的 识别 效果 最 好 ， 其 必 分 数 、 交 并 比 Intersection over Union, IoU)、 平 均 交 并 比 
(Mean Intersection over Union, MIoU ) OA 值 和 Kappa 系数 值 分别 为 0.92 、85.93% 、81.93% 、90.60% 和 0.80。 应 用 
UNet++ 模 型 对 2 种 由 仅 光 谱 特 征 以 及 光谱 + 地 形 特征 两 种 不 同 特征 构建 的 影像 进行 耕地 提取 ， 光 谱 + 地 形 特征 模型 
高 了 0.98% 、1.10% 和 0.01。[ 结 论 ] 深度 学 习 技术 在 应 用 于 


高 分 辩 率 遂 感 影像 中 的 耕地 识别 方面 展现 出 显著 的 实用 价值 ， 融 合 光谱 和 地 形 特征 可 以 实现 信息 互补 ， 能 进一步 
改善 耕地 的 识别 效果 。 本 研究 可 为 相关 部 门 更 好 地 管理 和 利用 耕地 资源 、 推 动 农业 可 持续 发 展 提供 技术 支撑 。 
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0 5| 言 

耕地 资源 是 社会 、 经 济 发 展 的 重要 基础 。 虽 然 
中 国 幅 员 辽 阔 ， 土 地 资源 丰富 ,但 是 由 于 中 国 地 形 
多 为 山地 丘陵 ， 不 利于 耕种 ， 耕 地 资源 仅 占 国土 总 
面积 的 14.05% "。 现 阶段 中 国 耕 地 资源 形势 严峻 ， 
耕地 面积 呈 下 降 之 势 ， 耕 地 质量 堪忧 、 集 约 利用 水 
平 低 下 、 耕 地 后 备 资源 匮乏 等 问题 日 益 严重 2 。 因 
此 ， 为 了 充分 利用 和 保护 耕地 ， 确 保 国家 的 粮食 安 
全 ， 实 现 对 生态 环境 的 有 效 改善 ， 为 土地 的 永 续 利 
用 打下 坚实 的 基础 ， 实 时 、 精 确 地 获取 耕地 面积 、 
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分 布 等 信息 显得 尤为 重要 “。 

现 阶段 获取 耕地 信息 的 方法 主要 有 2 种 : 一 是 
传统 的 实地 调查 法 。 该 类 方法 技术 成 熟 ， 具 有 精度 
高 、 稳 定 可 靠 等 优点 ， 但 仍 存在 成 本 较 高 ， 受 调查 
方案 设计 合理 性 影响 较 大 ， 数 据 精 度 存 在 显著 差异 
等 较 多 问题 ， 并 且 通 过 该 方法 获得 的 可 用 耕地 信息 
十 分 有 限 ， 无 法 满足 时 效 性 和 精度 的 要 求 “。 二 是 
遥感 监测 方法 。 遥 感 技 术 具 有 信息 获取 时 效 性 强 且 
信息 量 大 、 探 测 范围 大 、 受 地 面条 件 限 制 少 、 途 径 
多 样 等 优点 ， 能 有 效 弥 补 实地 调查 法 的 不 足 之 
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处 中 ,目前 在 耕地 信息 调查 方面 已 得 到 广泛 应 用 。 

为 了 减少 人 力 物 力 的 消耗 ， 遥 感 耕 地 监测 须 采 
用 自动 化 的 方法 从 海量 数据 集中 获取 高 精度 的 信 
息 。 但 传统 基于 机 器 学 习 的 遥感 信息 提取 方法 往往 
需要 手动 设计 特征 ， 容 易 出 现 特征 选择 不 合理 、 特 
征 工 程 不 充分 等 问题 ， 且 其 通常 采用 浅 层 模型 ， 难 
以 捕 提 复杂 的 非 线 性 关系 ， 导 致 地 物 的 提取 效果 往 
往 会 受到 限制 “。 随 着 计算 机 算 力 的 不 断 提 升 、 大 
数据 的 普及 以 及 新 理论 和 算法 的 出 现 ， 目 前 深度 学 
习 技 术 已 得 到 广泛 发 展 。2010 年 Minh 和 Hin- 
ton "| 首次 将 深度 学 习 技 术 用 于 获取 高 分 辨 率 双 感 
影像 的 道路 信息 。2015 年 ，Shelhamer 等 ”提出 了 
从 根本 上 改变 传统 图 像 语义 分 割 的 全 卷 积 网 络 结构 
(Fully Convolutional Network, FCN) ， 实 现 了 像素 
级 别 的 影像 分 类 。 此 后 深度 学 习 技 术 逐 渐 被 应 用 于 
遥感 影像 的 地 物 识别 、 变 化 监测 等 任务 中 。 但 上 述 
深度 学 习 模 型 仍然 存在 不 足 ， 如 没有 充分 考虑 像素 
与 像素 之 间 的 关系 ， 缺 乏 空 间 一 致 性 ; 感受 野 大 
小 ， 无 法 获取 全 局 信息 等 ,使 得 其 对 图 像 的 分 割 精 
度 仍 受到 较 大 限制 。 近 年 来 ， 涌 现 了 如 UNet ”1、 
Deeplab “21 、PSPNet |) 等 一 系列 新 型 深度 学 习 语 
义 分 割 模型 ， 这 些 模型 均 是 学 者 基于 深度 学 习 网 络 
进行 的 创新 与 改进 ， 也 已 被 应 用 于 耕地 等 多 个 地 物 
的 遥感 识别 研究 当中 "7 。 

以 像 元 为 基础 进行 遥感 地 物 识别 的 常规 方法 主 
要 考虑 的 是 不 同 地 物 的 影像 光谱 特性 ， 识 别 过 程 中 
往往 没有 充分 利用 地 物 的 其 他 特征 信息 。 中 国 西南 
地 区 地 形 起 伏 大 、 耕 地 分 布 破碎 ， 地 表 “ 同 谱 蜡 
H” WHARE MEEME, MAHER G 
谱 特 征 进行 地 物 识别 ， 会 导致 提取 精度 仍 受到 一 定 
的 限制 。 深 度 学 习 语义 分 割 方法 能 够 综合 运用 不 同 
类 型 识别 特征 中 蕴含 的 多 层次 语义 特征 ， 为 解决 上 
述 问 题 开 辟 了 新 的 途径 中。 但 目前 这 些 新 型 方法 
应 用 于 西南 丘陵 区 遥感 地 物 识 别 的 研究 还 较 少 ， 对 
识别 精度 的 提升 效果 还 有 待 验 证 。 

综 上 所 述 ， 人 研究 新 型 深度 学 习 模 型 对 中 国 西 南 
丘陵 区 遥感 耕地 识别 精度 的 提升 具有 重要 意义 ， 有 
助 于 更 加 精准 地 获取 耕地 的 数量 与 空间 分 布 特征 等 
信息 。 为 此 ， 本 研究 选取 四 川 省 中 部 丘陵 区 绵阳 市 
三 台 县 为 研究 对 象 ， 基 于 高 分 辨 率 的 高 分 六 号 遥感 
影像 与 区 域 数 字 高 程 模型 (Digital Elevation Model, 
DEM) 数据 ， 采 用 4 种 新 型 深度 学 习 模 型 进行 耕地 
识别 研究 ， 验 证 不 同 深度 学 习 模 型 及 传统 机 器 学习 
方法 在 遥感 耕地 识别 方面 的 精度 ， 并 与 一 套 最 新 土 


地 覆盖 数据 产品 进行 精度 对 比 ， 探 索 新 型 深度 学 习 
模型 在 高 分 辩 率 卫星 影像 丘陵 区 耕地 提取 中 的 可 行 
性 ， 以 期 为 遥感 大 数据 时 代 人 工 智 能 技术 的 快速 发 
展 及 其 在 土地 资源 监测 等 系列 需求 中 的 成 熟 应 用 提 
供 参考 依据 。 


1 研究 区 及 数据 来 源 


1.1 研究 区 概况 

本 人 研究 选取 四 川 省 绵阳 市 三 全 县 (30°42'34"~ 
31°26'35"N, 104°43'04"~105°18'13"E) 为 研究 区 
(图 1)， 其 位 于 绵阳 市 东南 部 、 四 川 倪 地 中 偏 西北 
部 ， 区 域 总 面积 2 659 km?。 该 县 地 处 川中 丘陵 区 东 
北部 深 丘 中 窜 谷 区 ， 长江 二 级 支流 孝 江 流 经 全 境 ， 
县 域 最 高 点 为 龙 树 镇 博 达 上 岭 (海拔 672.0 m)， 最 低 
点 位 于 孝 江 河谷 的 短 沟 口 (海拔 307.2 m)。 研 究 区 
属 亚 热带 湿润 季风 气候 ， 多 年 平均 气温 16.7°*C， 无 
着 期 年 平均 283 天 ， 年 降水 量 882~1 134 mm, 

三 台 县 具有 良好 的 农业 生产 基础 ， 县 域内 耕地 
分 布 广泛 ， 耕 地 面积 118.2 万 亩 (788.06 km’), 为 
四 川 省 典型 的 丘 区 农业 大 县 。 截 至 2021 年 末 ， 三 
台 县 常住 人 口 为 94.33 万 人 人， 人均 耕 地 面积 1.25 亩 
(833.34m)。 三 台 县 地 物 类 型 多 样 ， 耕 地 分 布 破碎 
分 散 ， 土 地 利用 具有 典型 的 丘陵 地 区 特性 ， 有 利于 
检验 这 度 学 习 模 型 在 遥感 地 物 识 别 方面 的 精度 。 
1.2 数据 来 源 及 预 处 理 
1.2.1 遥感 影像 数据 

本 研究 使 用 高 分 六 号 (GF-6) 卫星 影像 作为 影 
像 数 据 源 ， 该 数据 下 载 自 国家 航天 局 对 地 观测 与 数 
据 中 心 (https://www.cheosgrid.org.cn/)。 获 取 了 拍 
摄 时 间 为 2020 年 5 月 2 日 的 两 景 影像 ， 云 量 均 少 于 
10%。 影 像 数据 概况 如 表 1 所 示 。 

遥感 数据 使 用 ENVI 5.3 软件 进行 预 处 理 ， 首 先 
进行 辐射 定 标 、FLAASH (Fast line-of-Sight Atmo- 
spheric Analysis of Spectral Hypercubes) 大 气 校 正 
等 处 理 ; 然后 基于 卫星 影像 的 有 理 多 项 式 系数 
(Rational Polynomial Coefficient, RPC) 和 DEM 数 
据 对 影像 进行 正 射 校正 以 消除 图 像 几何 畸变 ;再 采 
用 Gram-Schmidt 融 合算 法 对 全 色 影 像 和 多 光谱 影像 
进行 融合 ”"， 融 合 后 多 光谱 影像 分 辩 率 达 2 m， 有 
利于 更 准确 提取 耕地 ， 为 后 续 的 目 视 解 译 、 样 本 制 
作 与 精度 验证 等 工作 奠定 基础 。 
1.2.2 ”其 他 数据 

研究 区 的 DEM 数据 来 自 2020 年 美国 国家 航空 
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注 : 该 图 由 自然 资源 部 标准 地 图 服务 网 站 下 载 的 审 图 号 为 川 S[2021】00050 号 标准 地 图 制作 , 底 图 无 修改 。 
图 1 四 川 省 绵阳 市 三 台 县 位 置 图 


Fig.1 Geographical location map of Santai county, Mianyang city, Sichuan province 


表 1 三 台 县 高 分 6 号 卫星 影像 数据 概况 


Tablel Overview of GF-6 satellite image data in Santai county 


载荷 谱 段 号 谱 段 范围 mm ”空间 分 辨 率 /m 
全 色相 机 Pan 450~900 2 
Blue 450~520 
Green 520~600 
JI 8 
多 光谱 相机 Red 630~690 
NIR 760~900 


航天 局 (National Aeronautics and Space Administra- 
tion, NASA) 发 布 的 全 新 全 球 30m 分辨 率 DEM 数 
据 (NASA DEM, https://Ipdaac.usgs. gov/products/na- 
sadem_hgtv001/)。 首 先 将 该 数据 重 采 样 至 与 上 述 卫 
星 影像 融合 后 的 空间 分 辨 率 (2 mX2 m)， 然 后 通 
过 重 采 样 后 的 DEM 数 据 生成 坡度 数据 ， 再 将 
DEM 、 坡 度数 据 与 卫星 影像 的 4 个 光谱 特征 波段 进 
行 波段 合成 构建 共 6 个 波段 、 用 于 提取 耕地 信息 的 
高 维特 征 影 像 。 

本 人 研究 还 使 用 了 1 套 土 地 覆盖 数据 产品 
SinoLC-1 用 于 对 比 评价 不 同 提取 方法 结果 的 精度 。 
SinoLC-1 数据 产品 是 由 武汉 大 学 李 卓 鸿 、 中 国 地 质 
大 学 (武汉) 张 洪 艳 等 发 布 的 1 m 分 辩 率 国家 尺度 
土地 覆 羡 产品”。 其 基于 深度 学 习 框 架 和 包括 全 
球 土地 覆盖 (Global Land Cover, GLC) 产品 、 开 放 
街道 地 图 (Open Street Map, OSM) 和 谷歌 地 球 图 
像 在 内 的 多 源 开放 访问 数据 建立 而 成 ， 总 体 精度 达 
73.6%。 

这 套数 据 集 的 分 类 系统 包含 了 耕地 这 一 地 物 类 
型 ， 可 以 从 中 提取 耕地 信息 ， 用 于 本 研究 的 精度 


评价 。 
2 研究 方法 
2.1 样本 数据 集 制作 


根据 研究 区 地 理 环 境 、 地 势 地 貌 和 土地 利用 等 
因素 ， 通 过 人 工 目 视 解 译 获 得 构建 模型 所 需 的 地 物 
样本 标签 数据 (Ground Truth, GT) ， 样 本 尽 可 能 地 
包含 各 种 地 物 类 型 (图 2)。 

AS FES BR OY FE BRU EON 10% ， 对 影像 和 标 


原始 影像 标签 数据 
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-TE 
TE 
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注 : 该 图 由 自然 资源 部 标准 地 图 服务 网 站 下 载 的 审 图 号 为 川 S 
【2021]00050 号 标准 地 图 制作 , 底 图 无 修改 。 
图 2 三 台 县 耕地 识别 模型 样本 位 置 及 样 例 


Fig.2 The location and samples of the cropland extraction mod- 


el in Santai county 
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签 数据 同时 进行 滑动 窗口 裁剪， 得 到 520 组 大 小 为 
256X256 像 素 的 数据 集 。 为 了 避免 训练 过 程 中 出 现 
过 拟 合 现象 ， 提 高 模型 的 鲁 棒 性 与 泛 化 性 ， 将 原始 
样本 数据 以 5 种 不 同方 式 (水 平 翻转 、 垂 直 翻 转 、 
对 角 镜 像 、 逆 时 针 旋 转 90"、 顺 时 针 旋 转 90") 进行 
数据 增强 ， 共 得 到 2 600 组 样本 数据 ， 并 以 4: 1 的 
比例 随机 划分 为 2 080 组 训练 样本 和 520 组 验证 样 
本 ， 样 例如 网 2 所 示 。 

2.2 深度 学 习 模型 

本 研究 采用 Unet、PSPNet、DeeplabV3+ 以 及 
Unet++ 共 4 种 次 度 学 习 模型 开展 耕地 的 遥感 识别 研 
究 ， 并 结合 传统 的 机 器 学 习 方 法 一 一 随机 和 森林 
(Random Forest, RF) 算法 的 识别 结果 ,分 析 不 同 
模型 对 高 分 辨 率 卫 星 影像 的 耕地 识别 精度 ， 为 提高 
耕地 利用 与 调 探 水平， 协调 耕地 与 经 济 、 生 态 之 间 
的 关系 提供 参考 。 

1) UNet 模 型 。UNet 是 Ronneberger ”于 2015 
年 提出 的 1 种 对 称 的 TU 型 结构 网 络 ， 左 边 编 码 需 由 
多 个 卷 积 层 和 池 化 层 组 成 ， 用 于 将 输入 图 像 降 采 样 
并 提取 特征 。 右 边 解码 器 由 多 个 上 采样 层 和 卷 积 层 
组 成 ， 用 于 将 编码 器 输出 的 特征 映射 恢复 到 输入 图 
像 的 分 辨 率 ， 并 且 提 供 逐 步 细 化 的 分 割 结果 。 两 者 
之 间 设 置 跳跃 连接 ， 以 便于 解决 分 割 结果 中 信息 丢 
失 的 问题 。 

2) PSPNet 模型 Zhao 等 '“ 在 2016 年 提出 
PSPNet 模型 ， 其 具有 金字塔 池 化 模块 (Pyramid 
Pooling Module, PPM) ， 该 模块 将 特征 图 分 为 不 同 
的 网 格 大 小 ， 并 在 每 个 网 格 大 小 上 执行 池 化 操作 , 
以 捕获 相应 尺度 的 上 下 文 信息 。 最 后 将 不 同 尺 度 的 
池 化 结果 连接 在 一 起 ， 并 应 用 空洞 卷 积 操作 以 获得 
最 终 的 上 下 文 特征 。 

3) DeeplabV3+ 模 型 。DeeplabV3+ 是 2018 年 
Chen 等 ' 在 DeeplabV3 基础 上 进行 改进 后 的 新 型 
深度 学 习 模 型 ， 其 将 不 同 空洞 率 的 空洞 卷 积 应 用 于 
编码 器 的 多 个 层 中 ， 以 获得 更 大 的 感受 野 ， 构 建 了 
由 批量 归 一 化 (Batch Normalization, BN) 层 组 成 
的 空洞 空间 金字 塔 池 化 层 (Atrous Spatial Pyramid 
Pooling, ASPP) ， 并 使 用 平均 池 化 和 最 大 池 化 来 合 
并 不 同 的 特征 信息 ， 通 过 以 级 联 或 并 行 的 方式 布局 
模块 。 

4) UNet++ 模 型 。 是 Zhou 等 2 在 2018 年 基于 
UNet 改 进 提出 了 UNet++ 模 型 。 在 UNet 的 基础 上 ， 
UNet++ 模 型 引入 了 更 多 的 上 采样 节点 和 跳跃 连接 。 


该 网 络 中 的 每 个 能 套 卷 积 块 通过 几 个 卷 积 层 提取 语 
义 信 息 ， 通 过 共享 一 个 编码 器 将 不 同 深度 的 UNet 
有 效 集 成 ， 骸 套 卷 积 块 中 的 卷 积 层 均 通过 密集 的 跳 
跃 连接 进行 连接 ， 使 得 连接 层 融 合 了 不 同 层 次 的 语 
义 信 息 。 这 些 改进 使 网 络 性 能 得 到 明显 提升 。 
2.3 机 器 学 习 模型 

REF 模型 由 Breiman ”提出 ， 是 基于 决策 树 
(Classification and Regression Tree, CART) 的 并 行 
式 集 成 学 习 算法 。 通 过 训练 若干 CART， 然 后 将 各 
个 CART 通 过 一 定 的 组 合 方式 形成 RF 统计 汇总 以 
获得 最 终结 果 。RF 具 有 无 需 做 特征 选择 、 不 易 过 
度 拟 合 和 精度 高 等 优点 ， 是 应 用 广泛 的 经 典 机 需 学 
习 方 法 。 在 本 研究 中 ，RF 模 型 的 输入 数据 与 深度 
学 习 模 型 保持 一 致 ， 以 评价 不 同 模型 的 耕地 识别 
精度 。 
2.4 实验 环境 与 实验 参数 

实验 使 用 Ubuntu20.04.2 LTS 操作 系统 及 Py- 
Torch 深度 学 习 开 发 框架 ， 以 Python 作为 开发 语言 。 
实验 采用 的 CPU 为 mtel fit 4 i7-12700F, GPU 为 
NVIDIA GeForce RTX 2080 Super。 在 训练 过 程 中 ， 
选用 AdamW (Adaptive Moment Estimation with De- 
coupled Weight Decay) 作为 优化 器 ， 初 始 学 习 率 设 
定 为 0.000 1， 模 型 迭代 次 数 (epoch) 设 为 30， 批 
量 大 小 (batch size) R 4, TAR PK BOR H 6 L i 
(Cross-Entropy ) 。 
2.5 精度 评价 

在 研究 区 域内 随机 生成 1 000 个 矢量 验证 点 构 
建 验证 数据 集 ， 利 用 同期 0.3 m 分 辩 率 的 Google 地 
球 卫 星 影像 ， 采 用 人 工 目 视 解 译 获取 验证 点 所 在 像 
元 的 地 物 类 型 ， 并 结合 各 模型 识别 结果 ， 通 过 混 消 
和 矩阵 (Confusion Matrix) '” 计算 整体 精度 (Over- 
all Accuracy, OA) 、 交 并 上 比 (Intersection over 
Union, IoU) 、 平 均 交 并 比 (Mean Intersection over 
Union, MIoU) . F, 4% (F,-Score) Kappa 系数 
(Kappa Coefficient) 等 5 个 精度 评价 指标 ， 对 不 同 
模型 及 数据 产品 的 耕地 识别 精度 进行 对 比 验证 。 在 
此 基础 上 上， 选择 精 度 最 高 的 深度 学 习 模 型 ， 分 别 对 
包含 不 同 特 征 的 两 类 影像 〈 识 别 特征 仪 包含 4 个 光 
谱 波 段 (R-G-B-NIR) 的 影像 和 在 此 基础 上 引入 地 
形 信 息 、 共 计 6 个 特征 波段 的 影像 ) 进行 耕地 识 
别 ， 并 计算 各 精度 评价 指标 以 评价 在 地 形 复杂 的 
丘陵 区 不 同 识别 特征 对 识别 精度 的 影响 ， 上 有 具体 如 
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公式 (1) ~ (7) 所 示 。 


Precision X Recall (1) 


F,- = 2) X 
pa BOME Precision + Recall 


TP 
loU = Tp 4 FN + FP (2) 
1 < TP 
MIoU = 7-5 > TP 4 ENG EP (a 
TP + TN 
OA = Pg TN + FP + EN (4) 
TP + TN 
| = 一 一 -一 
0 N (5) 
P =- 
(TP +FP)X (TP+FN)+(TN+FN)X(TN+FP) 
N?’ 
(6) 
Eo 
Kappa = 了 二 万 (7) 


式 中 : TP 为 真实 例 样 本 数 ， 个 ; FP 为 假 实例 
样本 数 ， 个; TN 为 真 反 例 样 本 数 ， 个 ; FN 为 假 反 
例 样本 数 ， 个 ; 为 样本 类 别 数 ， 种 ; YN 为 样本 总 
数 ， 个 ; Precision 为 精确 率 ， 是 TP 与 TP、FP 之 和 
的 比值 ， 表 示 预 测 为 真 的 耕地 概率 ; Recall 为 召回 
率 , 是 TP 与 TP、FN 之 和 的 比值 ， 表 示 为 被 预测 为 
耕地 的 样本 数 ; 已 -Score 是 Precision 和 Recall 的 调 
和 平均 ; IoU 为 每 种 地 类 的 交 并 比 ; MIoU 为 均 交 


Bin 0.6 
到 
IE 04 
02 
00 
Sod dt 50 OE 
迭代 批 次 
a. UNet++ 
1.0 
0g 
Bi 0.6 
K 
1S 04 
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MBA Oh, od os oR 


FEAL 


+ 


c. UNet 


并 比 ， 即 指 每 种 地 类 交 并 比 之 平均 值 ; OA 表示 正 
确 分 类 的 耕地 像 元 数 与 总 的 类 别 个 数 的 比值 ，P, 为 
观测 一 致 率 ; 忆 .为 期 望 一 致 率 ; Kappa 系数 由 Po, 以 
及 P. 计 算得 到 ， 是 评价 判断 一 致 性 程度 的 指标 。 
Precision, Recall, F,-Score, OA 和 Kappa 系数 的 
取 值 范围 介 于 0~1 之 间 ， 数 值 越 大 ， 表 明 模 型 的 识 
别 精度 越 高 。 


3 结果 与 分 析 


3.1 模型 训练 精度 对 比 


如 图 3 所 示 ，UNet++ 与 UNet 训 练 了 5 200 个 
batch，DeeplabV3+ 与 PSPNet 训 练 了 6 500 个 batch。 
在 最 初 的 2000 次 训练 迭代 中 ，4 种 深度 学 习 模 型 的 
验证 集 损失 函数 值 均 呈 明 显 下 降 趋势 ,在 5 000 次 
batch 以 后 损失 值 均 逐渐 形成 收 仇 ， 最 终 损失 函数 
值 曲线 走势 平缓 ， 模 型 表现 稳定 。 这 说 明 实验 的 学 
习 率 设置 合理 ， 通 过 损失 函数 可 实现 快速 收敛 达到 
最 优 效 果 ， 网 络 进行 了 有 效 学 习 。4 种 模型 的 损失 
函数 值 最 终 分 别 收敛 于 0.031 1、0.187 6、0.165 9 
和 0.317 7。 其 中 ，UNet++ 模 型 经 多 轮 近 代 后 的 准 
确 率 水 平 最 高 ， 收 敛 最 快 ， 曲 线 相 对 平滑 ， 波 动 性 


最 小 。 
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和 迭代 批 次 
d. PSPNet 


图 3 三 台 县 耕地 识别 模型 训练 损失 值 随 批 次 的 变化 曲线 


Fig.3 Curve of the fluctuation of train loss of the cropland recognition model in Santai county with batch iterations 
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在 训练 过 程 中 验证 集 MIoU 与 Kappa ACHE ik 
代 50 个 epoch 后 ， 数 值 不 再 有 明显 变化 ， 表 明 模 型 
学 习 已 经 达到 收敛 ， 即 使 再 次 增加 迭代 次 数 ， 训 练 
精度 也 不 会 有 较 大 提升 ， 这 表明 本 实验 在 迭代 50 
个 epoch 后 可 结束 训练 。 由 图 4 和 图 5 的 结果 可 知 ， 
UNet++ 与 UNet 的 收敛 速度 最 快 ， 而 PSPNet 变 化 最 


0.80 


0.80 上 


1 6 11 t6 21 26 «31 36 4l 46 
ARIE 


a. UNet++ 


0.78 


0.72 
1 6 11 16. 21), 26. 3% 3% 41 4 
BEK 


c. UNet 


为 平缓 ，DeeplabV3+ 最 不 稳定 。4 种 模型 的 验证 集 
MIoU 最 大 值 分 别 为 0.796 8、0.775 3、0.763 1 和 
0.756 3，Kappa 系 数 最 大 值 分 别 为 0.772 4、0.745 1, 
0.729 5 和 0.720 5， 两 个 精度 指标 的 验证 结果 同样 
表明 UNet++ 模 型 在 对 样本 集 的 耕地 识别 上 具有 最 
好 的 精度 。 


1 6 M616. Zi. 26. 31, 36. 41.46 
迭代 轮 次 


b. DeeplabV3+ 
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TEACHER IK 


d. PSPNet 


图 4 三 台 县 耕地 识别 模型 MIoU 随 轮 次 的 变化 曲线 


Fig.4 Curve of the fluctuation of MIoU of the cropland recognition model in Santai county with epoch iterations 


3.2 不 同 模型 识别 结果 精度 对 比 
3.2.1 精度 评价 指标 对 比 

基于 混淆 矩阵 的 计算 结果 ， 计 算 了 验证 数据 集 
(1 000 个 验证 点 ) 的 MIoU、Kappa 系 数 等 5 个 评价 
指标 〈 表 2) ， 综 合 各 精度 评价 指标 的 计算 结果 可 
知 ， 各 模型 /遥感 数据 产品 的 耕地 识别 精度 由 高 到 
低 依次 为 : UNet++>DeeplabV3+>UNet>PSPNet>RF 
>SinoLC-1。UNet++ 、DeeplabV3+ 模 型 在 F,-Score , 
IoU、OA、MIoU 和 Kappa 系 数 上 均 优 于 UNet 和 
PSPNet 模型 mj UNet 在 已 -Score、IoU、MIoU、 


2.7%; 在 耕地 的 提取 精度 上 ，IoU 提高 了 3.28%。 
基于 UNet 改 进 的 UNet++ 在 网 络 结构 上 使 用 了 密集 
的 跳跃 连接 ， 在 解码 器 子 网 络 上 充分 抓 取 了 不 同 层 
次 的 信息 并 进行 聚合 ， 从 识别 效果 上 看 ， 其 下- 
Score、IoU、MIoU、OA 值 和 Kappa 系 数值 分 别 为 
0.92、85.93%、81.93%、90.60% 和 0.80， 相 比 UN- 
et， 分 别提 高 了 0.03、6.28%、7.35%、4.5% 和 
0.09， 在 4 个 深度 学 习 模 型 中 的 识别 效果 最 好 。 此 
外 ， 可 以 看 出 传统 的 机 器 学 习 算 法 RF 法 以 及 土地 
覆盖 数据 产品 SinoLC-1 在 耕地 提取 上 效果 较 差 ， 其 


OA 值 和 Kappa 系 数 上 分 别 比 PSPNet 模 型 只 提高 了 
0.02, 3.12%., 3.26%., 2.2%., 0.05, M # %7 
大 ， 说 明 这 两 个 模型 应 对 当前 场景 的 识别 效果 处 于 
同一 水 平 。 而 DeeplabV3+ 在 网 络 结构 设计 上 借鉴 
跳 步 的 方式 连接 低层 特征 和 高 层 特征 ， 有 效 实现 多 
尺度 特征 信息 的 融合 ， 相 比 于 UNet， 从 总 体 识别 
效果 上 看 ，MIoU 提高 了 4.61%，OA 值 提高 了 


精度 评价 结果 均 远 低 于 4 种 深度 学 习 模 型 ， 如 RF 
法 的 IgU、MIoU 和 OA 分 别 相 较 UNet++ 低 18.45%、 
24.6%. 15.8%, ， 即 相对 于 这 两 种 提取 结果 ，UN- 
et++ 模 型 的 精度 提升 幅度 分 别 可 达 20% 和 50%。 
3.2.2 ”识别 结果 影像 对 比 

三 台 县 卫星 影像 及 各 模型 /数据 产品 识别 的 耕 
地 分 布 如 图 6 所 示 。 观 察 研究 区 的 卫星 影像 可 以 看 
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图 5 三 台 县 耕地 识别 模型 Kappa 系 数 随 轮 次 的 变化 曲线 


Fig.3 Curve of the fluctuation of Kappa of the cropland recognition model in Santai county coefficient with epoch iterations 


表 2 三 台 县 耕地 提取 结果 精度 对 比 


Table2 Comparison of accuracy in extracting cropland in 


Santai County 


模型 MIoU/% OA/% F,-Score Kappa 系 数 IoU/% 
UNet++ 81.93 90.60 0.92 0.80 85.93 
DeeplabV3+ 79.19 88.80 0.91 0.77 82.93 
UNet 74.58 86.10 0.89 0.71 79.65 
PSPNet 71.32 83.90 0.87 0.66 76.53 
RF 57.33 74.80 0.81 0.45 67.48 
SinoLC-1 59.42 75.90 0.81 0.49 67.82 


出 ， 三 台 县 内 耕地 主要 集中 分 布 在 县 域 的 西部 与 北 
部 ， 尤 其 在 邦 江 两 岸 阶地 上 耕地 规模 更 大 上 且 更 为 集 
中 ， 而 南部 与 西部 的 耕地 分 布 则 较为 破碎 。 

总 体 而 言 ， 各 深度 学 习 模型 对 耕地 的 识别 均 表 
现 出 良好 的 整体 效果 ， 能 够 准确 地 勾勒 出 耕地 分 布 
边界 。 其 中 ，UNet++ 模 型 的 耕地 总 体 提取 结果 最 
接近 真实 结果 ， 且 在 耕地 提取 完整 度 、 耕 地 与 其 他 
地 类 的 区 分 及 边界 提取 方面 相对 于 其 他 模型 均 具有 
一 定 优势 。 同 时 ， 由 于 遥感 影像 中 地 物 的 复杂 性 ， 
深度 学 习 模 型 在 进行 耕地 提取 时 仍 存在 一 定 程 度 的 
漏 识 与 错 识 问题 。 

与 深度 学 习 模 型 对 比 ，REF 法 在 耕地 破碎 化 程 
度 较 高 的 区 域 识 别 表 现 明 显 不 佳 ， 易 将 耕地 错误 地 
识别 为 非 耕 地 ， 大 大 影响 了 结果 的 精度 。 此 外 ,由 


于 该 法 属于 对 影像 像 元 逐一 识别 的 一 维 分 类 器 ， 造 
成 识别 结果 存在 一 定 程度 的 “椒盐 ”现象 ， 即 明显 
的 孤立 点 或 断 点 大 面积 分 布 “3。 土 地 履 六 产品 的 
识别 结果 同样 精度 不 佳 ， 存 在 大 量 的 错 判 和 漏 判 情 
况 ， 制 图 误差 大 的 区 域 主要 出 现在 地 形 破碎 、 耕 地 
零星 散布 的 区 域 。 

为 进一步 比较 各 模型 的 耕地 识别 精度 差异 ， 选 
取 城 镇 图 7a、 水 体 图 7b、 林 地 图 7c 和 连 片 耕地 图 
7d 共 4 个 典型 区 域 ， 对 其 耕地 识别 结果 从 视觉 效果 
上 进行 对 比分 析 。 这 4 个 区 域 尽 可 能 代表 了 研究 区 
域内 不 同类 型 的 耕地 ， 包 括 水 田 及 不 同 种 植 类 型 的 
旱地 等 ， 在 土地 利用 、 土 地 覆盖 和 农作物 类 型 等 方 
面具 有 显著 差异 ， 能 够 展示 各 深度 学 习 方 法 在 不 同 
场景 下 的 识别 效果 。 

从 土地 履 盖 产品 SinoLC-1 的 识别 结果 来 看 ， 其 
采用 的 卫星 影像 大 多 来 自 亚 米 级 分 辩 率 的 Google 
Earth， 随 着 空间 分 辩 率 的 提升 ， 其 对 部 分 分 布 破碎 
的 耕地 的 识别 效果 较 好 ， 该 数据 产品 识别 耕地 的 主 
要 不 足 在 于 将 大 面积 的 水 田 混 消 为 非 耕 地 ， 并 存在 
将 部 分 水 体 误 判 为 耕地 的 问题 。 

从 RF 法 的 识别 结果 来 看 ， 其 提取 识别 效果 在 
总 体 上 优 于 SinoLC-1， 可 以 在 一 定 程度 上 检测 出 不 
同 光 谱 特 征 的 耕地 ， 如 旱地 和 水 田 ， 其 主要 问题 在 
于 对 浑浊 河流 等 水 体 以 及 部 分 旱地 的 识别 效果 不 
好 ， 识 别 结果 中 将 较 大 范围 的 含 沙河 流 错误 地 识别 
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图 6 三 台 县 耕地 识别 结果 对 比 


Fig.6 Comparison of cropland identification results for different models in Santai county 


为 耕地 ， 总 体 误差 仍 较 大 。 

从 4 种 深度 学 习 模 型 的 识别 结果 来 看 ， 对 比 
SinoLC-1 和 RF 的 识别 结果 ， 各 深度 学 习 模 型 均 具 
有 更 好 的 识别 精度 ， 特 别 在 水 体 和 分 布 较 破碎 的 旱 
地 识别 方面 具有 更 加 精准 的 优势 。 其 中 ，PSPNet 
模型 的 识别 效果 逊色 于 其 他 深度 学 习 模 型 ， 出 现 了 
将 城镇 内 的 部 分 道路 误 识 为 耕地 、 对 边界 清晰 的 城 
镇 边界 提取 准确 度 低 、 识 别 结果 不 连续 等 较 多 问 
题 ; 而 DeeplabV3+ 模 型 存在 对 细小 地 物 的 分 制 仍 
然 不 够 精细 等 问题 。 相 比 UNet 模 型 ， 改 进 了 网 络 
结构 的 UNet++ 模 型 解决 了 信息 瓶颈 问题 ， 有 效 提 
高 了 分 割 的 准确 性 ， 其 在 耕地 提取 中 表现 出 色 ， 其 
结果 相对 其 他 模型 完整 ， 边 缘 相 对 其 他 模型 清晰 。 
3.3 不 同 特征 识别 结果 精度 对 比 

根据 上 述 分 析 结 果 ， 应 用 识别 精度 最 高 的 UN- 
et++ 模 型 对 2 种 由 不 同 特 征 〈 仅 光谱 特征 和 光谱 + 地 
形 特征 ) 构建 的 影像 进行 耕地 提取 ， 各 评价 指标 的 
计算 结果 如 表 3 所 示 ， 可 见 与 仅 采 用 光谱 特征 的 模 
型 相 比 ， 引 入 了 DEM、 坡 度 等 地 形 辅助 识别 特征 
用 于 地 物 识 别 的 深度 学 习 模 型 可 以 进一步 提高 遥感 
图 像 的 识别 精度 : 例如 从 IoU、OA 和 Kappa 这 3 个 
指标 来 看 ， 光 谱 + 地 形 特征 模型 比 光 谱 特 征 模型 分 
别提 高 了 0.98%、1.10% 和 0.01。 从 上 述 典 型 区 域 


的 识别 结果 来 看 ， 加 入 地 形 特征 后 的 识别 效果 更 
优 ,减少 了 错 判 漏 判 现象 ， 如 对 零散 分 布 在 林地 与 
荒地 中 的 耕地 进行 了 准确 的 识别 ， 且 轮廓 较 清 晰 。 
由 此 可 见 ， 融合 光谱 和 地 形 特征 可 以 实现 信息 互 
补 ， 能 进一步 改善 耕地 的 识别 效果 。 
4 讨论 与 结论 
4.1 讨论 

相对 于 UNet 模 型 ，UNett++ 模 型 通过 重新 设计 
跳跃 连接 ， 在 解码 器 子 网 络 上 聚合 不 同 尺 度 的 语义 
村 征 ， 从 而 创造 一 种 高 度 灵 活 的 特征 融合 方案 2 ， 
在 本 研究 中 获得 了 相对 较 好 的 识别 效果 。Deep- 
labV3+ 模 型 通过 在 编码 部 分 引入 包含 多 个 空洞 卷 积 
扩张 率 的 多 尺度 ASPP 特 征 提取 模块 ， 增 强 了 模型 
对 不 同 尺寸 的 同一 物体 的 识别 能 力 ， 捕 获 了 更 多 尺 
度 特征 ， 有 利于 恢复 地 物 的 边缘 信息 “”"， 其 识别 
精度 同样 较 高 。 相 比 之 下 ，UNet 模 型 复杂 度 低 ， 
网 络 层 构架 较 浅 ， 无 法 明确 表征 更 复杂 的 地 物 特 
征 ， 对 细节 特征 的 提取 也 不 完全 ， 造 成 信息 丢 
失守 ;而 PSPNet 模 型 虽然 能 够 提取 丰富 的 高 级 特 
征 ， 但 随 着 卷 积 深 度 的 增加 ， 图 像 的 边缘 信息 可 能 
会 变 得 模糊 ， 导 致 无 法 准确 捕捉 地 物 的 边界 信 
息 所 。 由 于 遥感 影像 地 物 具 有 尺度 多 样 等 特点 ， 
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图 7 三 台 县 耕地 识别 局 部 细节 对 比 
Fig. 7 Comparison of partial details in cultivated land identifi- 
cation in Santai county 
表 3 UNet++ 模 型 对 不 同 特征 影像 的 三 台 县 耕地 提取 结果 精 
度 对 比 


Table 3 Comparison of accuracy in extracting cropland in San- 


tai county using UNet++ model on different feature images 


影像 类 型 ” MIoU/% OA/% F,-Score Kappa 系 数 IoU/% 
光谱 特征 81.93 90.60 0.92 0.80 85.93 
光谱 + 地 形 特征 ”82.81 91.70 0.94 0.81 86.91 


相 较 于 UNett+ 和 DeeplabV3+ 模 型 ，UNet 和 PSPNet 
模型 在 应 对 多 尺度 复杂 目标 方面 的 能 力 相 对 较 差 ， 
导致 识别 精度 偏 低 。 

模型 的 识别 效果 往往 受 多 种 因素 的 影响 ,包括 
数据 集 的 数量 与 特点 、 任 务 的 难度 和 模型 的 架构 


等 。 本 人 研究 采用 的 数据 源 为 分 辨 率 达 2 m 的 高 分 卫 
星 影像 ， 研 究 区 域 选 择 的 是 耕地 面积 小 、 分 布 破碎 
的 丘陵 地 区 ， 从 识别 结果 可 以 看 出 ， 对 于 此 场景 中 
特定 的 任务 和 数据 集 ，UNet 模 型 的 表现 反而 优 于 
更 晚 提 出 的 PSPNet 模 型 。 因 此 ， 选 择 合适 的 模型 
时 ， 需 要 根据 具体 任务 和 数据 集 的 需求 特点 进行 综 
合 考虑 ， 后 续 可 围绕 耕地 提取 精度 随 样本 量 的 变化 
情况 进行 更 加 详细 的 探讨 ， 探 究 最 小 样本 量 等 问 
题 。 同 时 ， 本 研究 采用 的 模型 均 为 基础 模型 ， 未 作 
改进 ， 后续 的 研究 可 向 提升 模型 性 能 的 方向 进行 控 
索 ， 如 调整 编 解码 右 等 架构 模式 、 损 失 函 数 和 扩充 
寺 征 等 。 

人 研究 选用 的 最 新 土地 窗 盖 产品 在 本 区 域 存在 识 
别 焰 度 偏 低 ， 出 现 较 多 的 错 判 和 漏 判 等 情况 ， 这 与 
前 人 的 研究 结果 一 致 ””， 说 明了 此 类 土地 覆盖 产 
品 在 地 形 破 碎 、 耕 地 散布 的 山地 丘陵 区 的 适用 性 仿 
低 ， 上 自行 训练 模型 进行 信息 提取 具有 较 强 的 必要 
性 ， 以 更 加 精准 地 服务 于 特定 区 域 的 具体 应 用 场 
景 。 与 传统 的 机 带 学 习 方 法 (如 RF) Hi, RE 
学 习 模型 具有 更 高 的 准确 性 ， 同 样 体现 了 其 良好 的 
应 用 价值 。 但 在 研究 过 程 中 也 发 现 ， 仅 考虑 适 感 影 
像 自 身 的 光谱 信息 等 特征 来 提取 耕地 并 不 够 全 面 ， 
而 且 提取 效果 很 大 程度 上 受到 数据 质量 的 影响 。 此 
外 ， 对 于 深度 学 习 方法 ,训练 样本 数量 是 实际 应 用 
需求 的 重要 瓶 希 之 一 ， 直 接 影 响 到 模型 的 准确 性 和 
应 用 效率 ， 如 何 确定 最 佳 的 训练 数据 集 规 模 需 要 考 
虑 多 个 因素 ， 这 些 都 应 成 为 今后 研究 的 重点 。 
4.2 结论 


本 研究 以 农业 大 县 四 川 省 绵阳 市 三 台 县 为 研究 
区 ， 基 于 高 分 六 号 高 分 辩 率 卫星 影像 ， 采 用 了 Un- 
et、PSPNet、DeeplabV3+ 以 及 Unet++4 种 不 同 深度 
学 习 模 型 进行 了 耕地 自动 提取 的 实用 性 和 可 靠 性 研 
究 ， 取 得 了 较为 理想 的 识别 效果 ， 主 要 结果 如 下 。 

1) 通过 OA、Kappa 系 数 等 精度 指标 对 耕地 提 
取 结 果 进 行 了 精度 评价 ， 发 现 4 种 深度 学 习 模 型 的 
提取 结果 均 优 于 机 器 学 习 REF 方 法 和 新 型 土地 覆盖 
数据 产品 SinoLC-1， 精 度 提 升幅 度 分 别 可 达 20% 和 
50%。 其 中 ，UNet++ 模 型 表现 最 优 ， 精 度 评价 指标 
OA Fil Kappa 系数 分 别 达 到 了 90.6% 和 0.80，Deep- 
labV3+、UNet、PSPNet 方 法 次 之 。 这 表明 深度 学 
习 法 在 高 分 辩 率 遥感 影像 上 快速 、 准 确 地 获取 耕地 
言 息 上 共有 一 定 优势 和 实用 价值 。 

2) 选取 城镇 、 水 体 、 林 地 和 连 片 耕地 4 个 典 
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型 区 域 对 其 耕地 识别 结果 从 视觉 效果 上 进行 对 比分 
析 。PSPNet 模型 的 识别 效果 逊色 于 其 他 深度 学 习 
模型 ， 出 现 了 将 城镇 内 的 部 分 道路 误 识 为 耕地 、 对 
边界 清晰 的 城镇 边界 提取 准确 度 低 、 识 别 结果 不 连 
续 等 较 多 问题 ， 而 DeeplabV3+ 模 型 存在 对 细小 地 
物 的 分 割 仍 然 不 够 精细 等 问题 。 相 比 UNet 模 型 ， 
改进 了 网 络 结构 的 UNet++ 模 型 解决 了 信息 瓶颈 问 
题 ， 有 效 提高 了 分 割 的 准确 性 ， 其 在 耕地 提取 中 表 
现 出 色 ， 其 结果 相对 其 他 模型 完整 ， 边 缘 相 对 其 他 
模型 清晰 。 

3) 应 用 识别 精度 最 高 的 UNet++ 模 型 对 2 种 由 
不 同 特 征 ， 包 括 仅 光谱 特征 以 及 光谱 + 地 形 特征 ， 
构建 的 影像 进行 耕地 提取 ， 从 IoU、OA 和 Kappa 这 
3 个 指标 来 看 ， 光 谱 + 地 形 特征 模型 比 仅 光谱 特征 模 
型 分 别提 高 了 0.98%、1.10% 和 0.01， 可 见 ， 融 合 
光谱 和 地 形 特征 可 以 实现 信息 互补 ， 能 进一步 改善 
耕地 的 识别 效果 。 

根据 三 台 县 的 耕地 提取 结果 ， 结合 4 种 深度 学 
习 模 型 的 网 络 结构 差异 ， 本 研究 发 现 深度 学 习 模 型 
中 的 UNett+ 在 UNet 基 础 上 ， 引 入 跳跃 连接 的 机 制 
能 够 有 效 提 高 耕地 的 提取 精度 。 同 时 ， 引 入 了 
DEM、 坡 度 等 地 形 特征 可 以 实现 信息 互补 ， 有 助 
于 进一步 提高 深度 学 习 方法 在 遥感 耕地 识别 方面 的 
精度 。 


利益 冲突 声明 : 本 研究 不 存在 研究 者 以 及 与 公开 
研究 成 果 有 关 的 利益 冲突 。 
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Abstract: 


[Objective] To fully utilize and protect farmland and lay a solid foundation for the sustainable use of land, it is particularly important 
to obtain real-time and precise information regarding farmland area, distribution, and other factors. Leveraging remote sensing tech- 
nology to obtain farmland data can meet the requirements of large-scale coverage and timeliness. However, the current research and 
application of deep learning methods in remote sensing for cultivated land identification still requires further improvement in terms of 
depth and accuracy. The objective of this study is to investigate the potential application of deep learning methods in remote sensing 
for identifying cultivated land in the hilly areas of Southwest China, to provide insights for enhancing agricultural land utilization and 
regulation, and for harmonizing the relationship between cultivated land and the economy and ecology. 

[Methods] Santai county, Mianyang city, Sichuan province, China (30°42'34"~31°26'35"N, 104°43'04"~105°18'13"E) was selected 
as the study area. High-resolution imagery from two scenes captured by the Gaofen-6 (GF-6) satellite served as the primary image da- 
ta source. Additionally, 30-meter resolution DEM data from the United States National Aeronautics and Space Administration 
(NASA) in 2020 was utilized. A land cover data product, SinoLC-1, was also incorporated for comparative evaluation of the accuracy 
of various extraction methods' results. Four deep learning models, namely Unet, PSPNet, DeeplabV3+, and Unet++, were utilized for 
remote sensing land identification research in cultivated areas. The study also involved analyzing the identification accuracy of culti- 
vated land in high-resolution satellite images by combining the results of the random forest (RF) algorithm along with the deep learn- 
ing models. A validation dataset was constructed by randomly generating 1 000 vector validation points within the research area. Con- 
currently, Google Earth satellite images with a resolution of 0.3 m were used for manual visual interpretation to determine the land 
cover type of the pixels where the validation points are located. The identification results of each model were compared using a con- 
fusion matrix to compute five accuracy evaluation metrics: Overall accuracy (OA), intersection over union (IoU), mean intersection 
over union (MIoU), F,-Score, and Kappa Coefficient to assess the cultivated land identification accuracy of different models and da- 
ta products. 

[Results and Discussions] The deep learning models displayed significant advances in accuracy evaluation metrics, surpassing the 
performance of traditional machine learning approaches like RF and the latest land cover product, SinoLC-1 Landcover. Among the 
models assessed, the UNet++ model performed the best, its F\-Score, loU, MIoU, OA, and Kappa coefficient values were 0.92, 
85.93%, 81.93%, 90.60%, and 0.80, respectively. DeeplabV3+, UNet, and PSPNet methods followed suit. These performance metrics 
underscored the superior accuracy of the UNet++ model in precisely identifying and segmenting cultivated land, with a remarkable in- 
crease in accuracy of nearly 20% than machine learning methods and 50% for land cover products. Four typical areas of town, water 
body, forest land and contiguous cultivated land were selected to visually compare the results of cultivated land identification results. 
It could be observed that the deep learning models generally exhibited consistent distribution patterns with the satellite imageries, ac- 
curately delineating the boundaries of cultivated land and demonstrating overall satisfactory performance. However, due to the com- 
plex features in remote sensing images, the deep learning models still encountered certain challenges of omission and misclassifica- 
tion in extracting cultivated land. Among them, the UNet++ model showed the closest overall extraction results to the ground truth 
and exhibited advantages in terms of completeness of cultivated land extraction, discrimination between cultivated land and other land 
classes, and boundary extraction compared to other models. Using the UNet++ model with the highest recognition accuracy, two types 
of images constructed with different features—solely spectral features and spectral combined with terrain features—were utilized for 
cultivated land extraction. Based on the three metrics of loU, OA, and Kappa, the model incorporating both spectral and terrain fea- 
tures showed improvements of 0.98%, 1.10%, and 0.01% compared to the model using only spectral features. This indicated that fus- 
ing spectral and terrain features can achieve information complementarity, further enhancing the identification effectiveness of culti- 
vated land. 

[Conclusions] This study focuses on the practicality and reliability of automatic cultivated land extraction using four different deep 
learning models, based on high-resolution satellite imagery from the GF-6 in Santai county in China. Based on the cultivated land ex- 
traction results in Santai county and the differences in network structures among the four deep learning models, it was found that the 
UNet++ model, based on UNet, can effectively improve the accuracy of cultivated land extraction by introducing the mechanism of 
skip connections. Overall, this study demonstrates the effectiveness and practical value of deep learning methods in obtaining accurate 
farmland information from high-resolution remote sensing imagery. 
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